用手操纵的对象(即Manipulanda)对于从互联网视频中重建的重建尤其具有挑战性。手不仅会阻塞大部分观察,而且对象通常仅在少数图像像素中可见。同时,在这种情况下出现了两个强大的安装:(1)估计的3D手有助于消除对象的位置和规模,以及(2)相对于所有可能的观察,Manipulanda的集合很小。考虑到这些见解,我们提出了用于手持对象重建的可扩展范式,该范式基于大型语言/视觉模型和3D对象数据集的最新突破。鉴于单眼RGB视频,我们的目标是随着时间的流逝,以3D的形式重建手持对象几何形状。为了获得最佳性能的单帧模型,我们首先提出MCC手对象(McCho),该模型共同重建手和对象地理位置 - 给定单个RGB图像,并将3D手推断为输入。随后,我们使用GPT-4(v)提示文本到3D生成模型,以检索与图像中对象匹配的3D对象模型;我们称此对齐方式检索重建(RAR)。RAR提供
主要关键词
![arxiv:2404.06507V2 [CS.CV] 2024年4月10日PDF文件第1页](/bimg/0/0ca3406e8cd24ff62c7088e52415eac6a1738fd8.webp)
![arxiv:2404.06507V2 [CS.CV] 2024年4月10日PDF文件第2页](/bimg/d/da278e44a89c38fcac1fb8b8540ad55145655cb0.webp)
![arxiv:2404.06507V2 [CS.CV] 2024年4月10日PDF文件第3页](/bimg/f/fc4b0df9dd55ebdec2bdf7ef0ce322073cbf3801.webp)
![arxiv:2404.06507V2 [CS.CV] 2024年4月10日PDF文件第4页](/bimg/3/301e4e84b1e8422c48cf4b382d8ee51ef9f95b05.webp)
![arxiv:2404.06507V2 [CS.CV] 2024年4月10日PDF文件第5页](/bimg/e/e31ba6613f5da81f7e1d53c97b818d802d183302.webp)
